智能论文笔记

Discovering a set of policies for the worst case reward

Tom Zahavy , Andre Barreto , Daniel J Mankowitz , Shaobo Hou , Brendan O'Donoghue , Iurii Kemaev , Satinder Singh

分类：人工智能 | 机器学习

2021-02-08

我们研究如何构建一组可以组成的政策来解决一个加强学习任务的集合。每个任务都是不同的奖励函数，被定义为已知功能的线性组合。我们考虑一下我们呼吁改进政策的特定策略组合（SIPS）：给定一套政策和一系列任务，SIP是前者的任何构成，其性能至少与其成分的表现相当好所有任务。我们专注于啜饮的最保守的实例化，Set-Max政策（SMPS），因此我们的分析扩展到任何SIP。这包括已知的策略组合运营商，如广义政策改进。我们的主要贡献是一种策略迭代算法，构建一组策略，以最大限度地提高所得SMP的最坏情况性能。该算法通过连续向集合添加新策略来工作。我们表明，生成的SMP的最坏情况性能严格地改善了每次迭代，并且算法仅在不存在导致改进性能的策略时停止。我们经验在网格世界上进行了验证评估了算法，也是来自DeepMind控制套件的一组域。我们确认了我们关于我们算法的单调性能的理论结果。有趣的是，我们还经验展示了算法计算的政策集是多样的，导致网格世界中的不同轨迹以及控制套件中的非常独特的运动技能。

translated by 谷歌翻译

面部变形攻击检测（MAD）是当今面部识别领域中最具挑战性的任务之一。在这项工作中，我们引入了一种新颖的深度学习策略，用于单个图像面部变形检测，这意味着在复杂的分类方案中歧视了变形的面部图像以及复杂的面部识别任务。它针对学习深度面部特征，这些面部特征带有有关这些功能真实性的信息。我们的工作还介绍了一些其他贡献：公众和易于使用的面部变形检测基准和我们野生数据集过滤策略的结果。我们称之为Mordeephy的方法实现了最先进的表现，并证明了将转变检测任务的任务推广到看不见的情况的重要能力。

translated by 谷歌翻译

由于高注重成本，充分利用现有的人类创建的培训数据是一个重要的研究方向。因此，我们对五个英语数据集进行了对伯特的神经排名模式的可转移性的系统评估。以前的研究主要集中在零拍摄和几秒钟从一个大型数据集转移到具有少量查询的数据集。相比之下，我们的每个集合都具有大量的查询，可以实现全拍评估模式并提高结果的可靠性。此外，由于源数据集许可证通常禁止商业用途，因此我们比较转移学习以对BM25得分手产生的伪标签培训。我们发现对伪标签的培训 - 可能使用适度的注释查询的后续调整 - 与转移学习相比，可以产生竞争或更好的模型。然而，有必要提高几次拍摄训练的稳定性和/或有效性，有时可以降低预磨料模型的性能。

translated by 谷歌翻译